% Chapter Template

\chapter{Modélisation des extrêmes univariés} % Main chapter title

\label{Chapter5} % Change X to a consecutive number; for referencing this chapter elsewhere, use \ref{ChapterX}

\lhead{Chapitre 5. \emph{Modélisation des extrêmes univariés}} % Change X to a consecutive number; this is for the header on each page - perhaps a shortened title

Dans la partie précédente, nous avons vu que la modélisation journalière simple des pluies ne suffisait pas pour modéliser les indices paramétriques. Pour rappel, le contrat XSR se déclenche uniquement quand les pluies agrégées 5 jours dépassent un certain seuil. Cela nous fait penser à l'approche de dépassement de seuil dont la modélisation est possible grâce à la théorie des valeurs extrêmes. C'est pourquoi nous allons présenter les résultats principaux de cette théorie afin de les appliquer à notre problème (c.f S.Coles \cite{Coles}).

\section{Théorie des valeurs extrêmes}
\subsection{Les théorèmes fondamentaux}
\subsubsection{Loi des valeurs extrêmes} Le premier objet d'étude de la théorie des valeurs extrêmes est l'étude du comportement statistique de 
\begin{equation*}
M_n=max\{X_1,\dots,X_n \}
\end{equation*}
où $X_1,\dots,X_n$ sont des variables aléatoires indépendantes identiquement distribuées ayant pour fonction de répartition $F$. En pratique, les $X_i$ peuvent représenter les valeurs d'un processus mesuré à intervalle régulier de façon à ce que $M_n$ représente le maximum du processus sur n temps d'observation.
En théorie, la distribution de $M_n$ peut être obtenue en fonction de $F$ :
\begin{align*}
\mathbb{P}\{M_n\leq z\} &=\mathbb{P}\{X_1\leq z, \dots, X_n\leq z\} \\
&=\mathbb{P}\{X_1\leq z\} \times \dots \times \mathbb{P}\{X_n\leq z\} \\
&= \{F(z)\}^n
\end{align*}
Cependant, $F$ est en général inconnue. Même s'il est possible d'estimer $F$, le comportement de $M_n$ est difficile à prévoir lorsque n tend vers $+\infty$. Le théorème suivant permet de pallier ce problème lorsque $M_n$ ne dégénère pas. 
\begin{theorem} %\textbf{Théorème de Gnedenko}
\label{th: GEV}
Supposons qu'il existe deux suite réelles, $(a_n)_{i=1,\dots,n}$ et $(b_n)_{i=1,\dots,n}$, telles que : \\
\begin{equation*}
\mathbb{P}\left(\frac{M_n-b_n}{a_n}\leq z \right) \longrightarrow G(z)\hspace{0.5cm} \textit{lorsque} \hspace{0.5cm} n\rightarrow \infty
\end{equation*}
où G est une fonction d'une distribution non dégénérée, alors G appartient à la famille de fonctions suivante :
\begin{equation*}
\begin{aligned}
\begin{array}{rcl}
I. \hspace{0.2cm}\textit{Gumbel} &:\hspace{0.1cm}  G(z) & = \exp \left\{-\exp \left[- \left( \frac{z-b}{a} \right) \right] \right\}, -\infty < z < \infty ;\\ \\
II. \hspace{0.2cm}\textit{Fréchet}&:  \hspace{0.1cm} G(z) & =\left\{ \begin{array}{lr}
0, & z \leq b\\
\exp\lbrace-\left(\frac{z-b}{a} \right)^{-\alpha} \rbrace, & z>b ;
\end{array}
 \right. \\ \\
III. \hspace{0.2cm}\textit{Weibull} &: \hspace{0.1cm} G(z) & =\left\{ \begin{array}{lr}
 \exp\lbrace-\lbrack\left(\frac{z-b}{a} \right)^{-\alpha} \rbrack\rbrace, & z<b \\
 1, & z \geq b ;\\
 \end{array}
  \right.
\end{array}\\
\end{aligned}
\end{equation*}
\end{theorem}
\begin{figure}[htbp]
\centering
    \includegraphics[scale=0.8,keepaspectratio=true]{Figures/Chapter2/GEV.pdf}
  \caption[Famille de loi GEV]{Densité de loi GEV ($\mu=80$, $\sigma=70$, $\xi$)}
  \label{fig: GEV}
\end{figure}

\noindent On dit que F appartient au domaine d'attraction de Fréchet (respectivement de Gumbel ou de Weibull) lorsque la loi limite des maxima suit une loi de Fréchet (respectivement de Gumbel ou de Weibull).

\noindent Les trois distributions ci-dessus peuvent être regroupées dans une famille plus générale de distribution, connue sous nom loi d'extremum généralisée \emph{Generalized Extremes Values} (GEV) :
\begin{align}
&G(z) = \exp \left\{- \left[ 1+\xi \left( \frac{z-\mu}{\sigma} \right) \right]^{-1/\xi} \right\}, \hspace{0.5cm} \textit{où} 
 \hspace{0.5cm}
\left\{
\begin{array}{rcr}
-\infty<&\mu&<\infty \\
 0<&\sigma & \\
 -\infty<&\xi &< \infty \\
\end{array}\right.
%&G\textit{ étant définie sur } \{z : 1+\xi(z-\mu)/\sigma >0 \}
\end{align}
Une GEV est définie par trois paramètres suivants  :
\begin{itemize}
\item $\mu$ : le coefficient de position
\item $\sigma>0$ : le coefficient de dispersion
\item $\xi$ : le coefficient de forme. Le paramètre $\xi$, parfois appelé "indice de queue", spécifie le comportement de la distribution dans ses queues.\\
\end{itemize}
\begin{table}[htbp] \label{tab: Famille GEV}
\centering
\begin{tabular}{c|c|l}
Distribution \emph{GEV}($\mu$,$\sigma$,$\xi$) & Valeur de $\xi$ & Distribution de queue\\
\hline \hline
Gumbel & $\xi =0$ (limit lorsque $\varepsilon \rightarrow 0$) & Intermédiaire\\
Fréchet & $\xi>0$  & Epaisse \\
Weibull & $\xi<0$ & Finie \\
\end{tabular}
\caption[Famille de loi GEV]{Famille de loi GEV} 
\end{table}

\subsubsection{Loi des excès} La deuxième approche de la théorie des valeurs extrêmes est l'étude du comportement des valeurs observées au-delà d'un seuil.

\noindent De manière similaire, si on note $F$ la fonction de distribution commune des $n$ variables aléaloires i.i.d $X_1,\dots,X_n$ alors on a :
\begin{equation*}
\mathbb{P}\{X>u+y|X>u\}=\frac{1-F(u+y)}{1-F(u)}, \hspace{0.5cm} y>0
\end{equation*}
Le théorème suivant nous permet d'approximer la loi des excès.
\begin{theorem} %\emph{\textbf{Pickands}} 
\label{th: GPD}
%Soit $M_n=max\{X_1,\dots,X_n\}$.\\
On suppose que F vérifie les mêmes hypothèses du théorème \ref{th: GEV}, pour n assez grand :
\begin{align*}
\mathbb{P} \left( M_n \leq z \right) \approx G(z)
\end{align*}
\textit{où}
\begin{align*}
G(z)= \exp 
\left\lbrace- \left[1+ \xi \left( \frac{ z-u }{ \sigma } \right) \right]^{-1/\xi} \right\rbrace
\end{align*}
pour certain $\mu,\sigma>0,\xi$. Alors pour $u$ assez grand, la fonction de répartition de $(X-u)$, conditionnellement à $X>u$, est approximativement égalée à :
\begin{equation}\label{eq: GPD}
H(y) = 1 - \left(1+\frac{\xi y}{\tilde{\sigma}}\right)^{-1/\xi}
\end{equation}
définie sur $\{y:y>0$ et $(1+\xi y/\tilde{\sigma})>0\}$, où
\begin{align}
\tilde{\sigma}=\sigma + \xi(u-\mu) 
\end{align}
\begin{flushright}
$\square$
\end{flushright}
\end{theorem}
\begin{figure}[htbp]
\centering
    \includegraphics[scale=0.8,keepaspectratio=true]{Figures/Chapter2/GPD.pdf}
  \caption[Famille de loi GPD]{Densité de loi GPD ($seuil=80$, $\sigma=150$, $\xi$)}
  \label{fig: GPD}
\end{figure}

\noindent La famille de distribution définie par l'équation \ref{eq: GPD} est connue sous le nom de famille de loi de Pareto Généralisée, \emph{Generalized Pareto family -- GPD} qui regroupe les lois suivantes selon le paramètre de forme $\xi$ :\\
\begin{itemize}
\item $\xi>0$, il s'agit de la loi de Pareto simple
\item $\xi<0$, c'est la loi de Pareto de type II
\item $\xi=0$, loi exponetielle ( limite de $H$ lorsque $\xi \rightarrow 0$). \\
\end{itemize}

\noindent  Nous constastons que le théorème \ref{th: GPD} permet de faire la correspondance entre les lois GEV et GPD. En effet, le paramètre de forme $\xi$ reste toujours le même. Les lois GPD se réduisent à deux paramètres $\tilde{\sigma}$ et $\xi$ , il n'y a plus le terme de localisation $\mu$ comme dans les loi GEV. Toutefois, il existe une relation entre les $\mu$, $\sigma$ d'une GEV et $\tilde{\sigma}$ de la GPD correspondante.

\subsection{Estimation}
Nous nous intéressons à l'estimation des paramètres d'une GPD car la construction des indices paramétriques repose essentiellement sur le dépassement d'un certain seuil de précipitation. Par soucis de simplicité, nous supposons dans cette partie que les observations sont de même loi et indépendantes (i.i.d.).
\subsubsection{Sélection de seuil} \label{sec:sélection seuil}
La sélection de seuil peut s'avérer délicate car il faut faire un compromis entre le biais de modèle et la variance du modèle. En effet, une trop faible valeur de seuil $u$ peut introduire un biais important dans le modèle tandis qu'un seuil trop élevé génèrera trop peu d'observations sur lesquelles le modèle peut être estimé, donc une variance trop forte. La méthode standard consiste à trouver un seuil le plus faible possible qui fournit toutefois un modèle raisonnable en terme d'approximation. Pour ce faire, il y a deux étapes : la première est une technique exploratoire à effectuer avant d'estimer le modèle, la seconde confirme la stabilité des paramètres estimés en se basant sur le calibration de modèle.

\begin{enumerate}[a)]
\item Choix à priori 

Cette étape se base sur la formule de l'espérance d'une loi Pareto Généralisée. Si l'on note Y une variable aléatoire suivant une loi de GPD de paramètre ($\sigma$, $\xi$), alors  :
\begin{equation}\label{eq: mean GPD}
 \mathbb{E}\left(Y\right)=
 \left\lbrace
\begin{array}{cl}
\frac{\sigma}{1-\xi} & \textit{si } \xi<1\\
\infty & \textit{si } \xi\geq1
\end{array}
\right.
\end{equation}
Supposons qu'une loi GPD soit adaptée au problème de dépassement de seuil $u_0$ d'un échantillon $X_1,\dots,X_n$ dont le terme générique est noté $X$, alors : 
\begin{equation}
\mathbb{E} 
\left( X-u_0|X>u_0 \right) = \frac {\sigma_{u_0}}{1-\xi} \textit{ pour } \xi <1 
\end{equation}
Le modèle doit rester valide pour tout dépassement de seuil $u>u_0$ : 
\begin{align} \label{eq: Mean excess}
\mathbb{E} \left(X-u|X>u\right)\hspace{0.1cm}=&\hspace{0.1cm}\frac{\sigma_u}{1-\xi}\\
\hspace{0.1cm}=&\hspace{0.1cm}\frac{\sigma_{u_0}+\xi u}{1-\xi}
\end{align}
Donc la moyenne des excès est une fonction linéaire du seuil $u$. Il suffit donc de tracer $\left\lbrace\left(u,\frac{1}{n_u}\sum_{i=1}^{n_u} \left(x_{\left(i\right)}-u\right)\right):u<x_{\textit{max}}\right\rbrace$ et de trouver le seuil à partir duquel la courbe est linéaire. 

A titre d'exemple sur la figure \ref{fig: Mean excess}, la moyenne des excès au-delà du seuil est representée en fonction de u. On observe que l'information fournie pour les grandes valeurs de u (au delà de 300 mm) n'est pas très fiable à cause du nombre de données limité pour les grandes valeurs. Le seuil de 100 mm semble être un bon compromis entre le nombre d'observations retenues et la linéarité de la fonction "Mean Excess".\\
\begin{figure}[htbp]
\centering
    \includegraphics[scale=0.8,keepaspectratio=true]{Figures/Chapter2/Mean_Excess.pdf}
  \caption[Moyenne des dépassements]{Moyenne des dépassements de la précipication agrégée en fonction du seuil }
  \label{fig: Mean excess}
\end{figure}

\item Choix de seuil revisité

Par le théorème \ref{th: GPD}, si une loi GPD est adaptée au problème de dépassement de seuil $u_0$, alors les excès au delà du $u > u_0$ devraient suivre aussi une loi GPD. Le paramètre de forme $\xi$ est identique pour les deux distributions. Cependant, le paramètre d'échelle $\sigma$ pour les excès au-delà de $u >u_0$ est donné par : 
\begin{equation} \label{eq: sigma}
\sigma(u) = \sigma_{u_0}+\xi(u-u_0)
\end{equation}
$\sigma$ varie donc linéarement en fonction de $u$ si $\xi \neq 0$.  
\end{enumerate}
\subsubsection{Estimation des paramètres}
Une fois que le seuil $u$ est selectionné, les paramètres d'une loi GPD($\sigma$, $\xi$) peuvent être estimés via la méthode du maximum de vraisemblance.\\
Soient $y=y_1,\dots,y_k$ la réalisation de $Y=Y_1,\dots,Y_k$ qui représente l'échantillon des excès de seuil u. Deux cas de figures s'écrivent selon la valeur du paramètre de forme $\xi$ : 
\begin{enumerate}
\item $\xi\neq0$ \\
La log-vraisemlance s'écrit :
\begin{equation}
l(\sigma,\xi)=-k\log(\sigma) - (1+1/\xi)\sum_{i=1}^{k}\log(1+\xi y_i/\sigma)
\end{equation}
En dérivant la log-vraisemlance par rapport à $\xi$ $\sigma$, on obtient :
\begin{align*}
%partial \xi
\frac{\partial l}{\partial \xi}(\sigma,\xi) = 0 
&\Longleftrightarrow
-\frac{1+1/\xi}{\sigma}\sum_{i=1}^{k}\frac{y_i}{1+\xi y_i / \sigma}-1/\xi^2\sum_{i=1}^{k}\log(1+\xi y_i/ \sigma) =0\\
\frac{\partial l}{\partial \sigma}(\sigma,\xi) = 0 
&\Longleftrightarrow 
-\frac{k}{\sigma} - (1+\xi)\sum_{i=1}^{k}\frac{y_i}{1+\xi y_i /\sigma} = 0
\end{align*}
Le système d'équation ci-dessus qui permet de trouver les estimateurs de maximum de vraisemblance des paramètres $\hat{\xi}$ et $\hat{\sigma}$ peut être résolu via la résolution numérique.

\item $\xi = 0$ \\
Nous écrivons la log-vraisemblance pour des lois exponetielles :
\begin{equation}
l(\sigma)=-k\log(\sigma)-\frac{1}{\sigma}\sum_{i=1}^{k} y_i
\end{equation}
L'annulation de la dérivée par rapport à $\sigma$ s'écrit : 
\begin{equation*}
\frac{\partial l}{\partial \sigma} (\sigma) = 0 
\Longleftrightarrow 
-\frac{k}{\sigma} + \frac{1}{\sigma^2}\sum_{i=1}^{k}y_i = 0
\end{equation*}
L'estimateur du maximum de vraisemblance est donc : $\hat{\sigma}=\frac{1}{k}\sum_{i=1}^{k}y_i $
\end{enumerate}
\subsection{Problème de dépendance et méthodologie clustering}
Rappelons que pour construire notre indice paramétrique, il est nécessaire de calculer l'agrégation des pluies 5 jours. Si l'hypothèse d'indépendance entre les précipitations journalières semble acceptable, alors celle sur l'indépendance des précipitations agrégées ne parait pas être reçevable. Afin de pouvoir travailler sur des séries dépendantes en théorie des valeurs extrêmes, il est usuel de supposer que les extrêmes sont indépendants lorsqu'ils dépassent un seuil $u$ assez grand. En d'autres termes, cela revient à supposer que les événements extrêmes sont suffisament écartés dans le temps pour considérer qu'ils soient indépendants. Dans l'ouvrage de Coles \cite{Coles}, une méthodologie pour travailler avec des séries dépendantes est proposée comme suivante :
\begin{enumerate}[1. ]
\item Utiliser une règle empirique de découpage pour définir des clusters d'excès. Les règles empiriques se basent essentiellement sur l'observation des événements extrêmes. Un cluster peut être défini comme une période continue de dépassement d'un seuil. Il est possible d'introduire une contrainte sur l'espacement temporel minimal des clusters afin de pouvoir considérer les événements indépendants.
\item Identifier la valeur maximale sur chaque cluster. 
\item Estimer la loi GPD associée aux maxima des clusters.
\end{enumerate}
Nous allons appliquer cette méthodologie sur les séries de pluies agrégées 5 jours. 

\section{Application aux indices locaux}

\subsection{Principe de modélisation par cellule}

Dans cette partie, nous voulons modéliser les indices locaux et considérons que le contrat XSR offre une couverture uniquement par région. Nous pourrons calculer plus tard une prime par cellule reflétant la dynamique de chaque indice local. 

\noindent Un indice local correspond à un dépassement du seuil de 250 mm des pluies agrégées sur 5 jours. C'est pour cela que nous voulons modéliser les dépassements de seuil, c'est-à-dire la loi de $X|X>250$.  Pour ce faire, nous allons appliquer les modèles de dépassement de seuil aux 28 séries de pluies agrégées. Dans le cas où les observations sont indépendantes, la première étape consiste à sélectionner un seuil $u_0$  pour lequel la modélisation par loi de Pareto des dépassements $X|X>u_0$ est vraisemblable (cf. sélection de seuil \ref{sec:sélection seuil}). L’échantillon d’estimation est alors constitué de toutes les précipitations historiques ayant dépassé ce seuil. L’hypothèse d’indépendance des observations jours après jours n’est pas valable car il s'agit de pluies agrégées sur 5 jours. Concrètement, si le cumul des pluies dépasse 250 mm, il sera probable que le cumul du jour suivant soit élevé voire dépasse 250 mm. Pour cette raison, nous allons appliquer la théorie des dépassements de seuils à des séries dépendantes. 

\noindent L’échantillon d’estimation est obtenu par détection des dépassements de seuils, ou autrement dit par technique de « Clustering ». L’idée est de prendre des données suffisamment espacées dans le temps pour qu’elles soient considérées comme indépendantes les unes par rapport aux autres. En pratique, les clusters sont définis comme les précipitations successives dépassant un certain seuil. C’est exactement la façon dont les événements locaux sont définis avec un seuil de 250 mm selon le CCRIF. Après avoir localisé les clusters (événements locaux), seuls les maxima (pics de précipitations) sont utilisés dans l’estimation des paramètres de la loi de dépassement. 
Le seuil sélectionné $u_0$ est inférieur à 250 mm pour que l’échantillon d’estimation soit suffisamment grand. Une fois que la loi $(X|X>u_0)$ avec $u_0$ seuil de sélection est connue, il sera possible d’en déduire la loi de $(X|X>250)$. En effet, on sait par la formule \ref{eq: sigma} que si $(X|X>u_0)\sim GPD(\xi ,\sigma_0)$ alors $(X|X>250)\sim GPD(\xi ,\sigma_0+\xi(250-\sigma_0))$.

\subsection{Application à la ville de Kingston }

Nous nous proposons de détailler les étapes de la modélisation du dépassement de seuil pour la cellule 20 correspondant à la ville de Kingston. Pour avoir assez de données, nous effectuons la modélisation sur l’année et non par mois comme précédemment. Il sera possible dans un second temps de ne prendre en compte que les saisons des pluies (Mai et Juillet à Décembre) afin de ne pas sous-estimer le risque couvert lors du calcul de la prime.

\noindent La première étape de la procédure consiste à choisir un seuil $u_0<250$ mm qui permet de définir les clusters ou événements locaux.  Pour ce faire, nous affichons les dépassements moyens résiduels de seuils c’est-à-dire $E (X-u|X > u)$ en fonction de u avec X la série des pluies agrégées sur 5 jours à Kingston (cellule 20) sur la figure \ref{fig: Mean Excess Kingston}. 
\begin{figure}[htbp]
\centering
   \includegraphics[scale=0.6,keepaspectratio=true]{Figures/Chapter2/seuil_select.pdf}
  \caption[Espérance résiduelles des dépassements de seuils des pluies agrégées sur 5 jours]{Espérance résiduelles des dépassements de seuils des pluies agrégées sur 5 jours}
  \label{fig: Mean Excess Kingston}
\end{figure}

\begin{figure}[htbp]
\centering
   \includegraphics[scale=0.5,keepaspectratio=true]{Figures/Chapter2/parameters_threshold.pdf}
  \caption[Paramètres de loi GPD en fonction du seuil]{Paramètres de loi GPD en fonction du seuil}
  \label{fig: GDP Params}
\end{figure}

\noindent D’après la formule \ref{eq: Mean excess}, l’espérance résiduelle doit être croissante en fonction du seuil u à partir de $u_0$. Le seuil recherché doit être suffisamment élevé pour ne pas sous estimer la loi des dépassements. S’il est trop grand, le nombre de données pour l’estimation sera insuffisant ce qui augmente la variance des estimateurs. D’après la méthodologie utilisée par Stuart Coles \cite{Coles}, nous choisissons ici un seuil de 94 mm. Pour vérifier que ce seuil n’est pas aberrant, nous affichons les paramètres d’échelle et de forme modifiés en fonction du seuil. Ces paramètres devraient être constants au voisinage du seul sélectionné d’après la formule \ref{eq: sigma}. Ce test visuel sur la figure \ref{fig: GDP Params} confirme que 94 mm (nous prendrons 100 mm pour simplifier) est un seuil correct pour modéliser les dépassements de pluies agrégées sur 5 jours par des lois de Pareto Généralisées. En choisissant le seuil $u_0=100 mm$, il y a 54 clusters entre 1998 et 2012. A titre d’exemple, la répartition temporelle des 5 clusters en 2004 est représentée ci-dessous. La dépendance des pluies sur 5 jours, c’est-à-dire la persistance des pluies torrentielles se traduit par la taille des clusters :
\begin{figure}[htbp]
\centering
  \includegraphics[scale=0.6,keepaspectratio=true]{Figures/Chapter2/clusters.pdf}
  \caption[Représentation des clusters / événements locaux pour un seuil de 100 mm]{Représentation des clusters / événements locaux pour un seuil de 100 mm}
  \label{fig: Clusters}
\end{figure}

\noindent Les 54 données de dépassement maximal constituent l’échantillon d’apprentissage pour estimer la loi GPD. Les valeurs obtenues pour les paramètres d’échelle et de forme sont respectivement $(\hat{\sigma})=63,3$ et $\hat{\xi}=0,$2. 

\noindent Nous voulons tester si $\xi$ est significativement différent de 0 ou non. Pour cela, nous calculons la statistique de Student  $ \hat{\xi}/SE(\hat{\xi} )=0,2058/0,2157=0,954$. Pour un test de Student bilatéral de niveau de risque 5\% et de $54-2=52$ degrés de liberté, le seuil limite est de 2,01>0,954. Nous acceptons donc l’hypothèse de nullité du paramètre $\xi$. Cela correspond au cas où les dépassements résiduels du seuil 100 mm suivent une loi exponentielle (la GEV sous-jacente est une loi de Gumbel), qui a une queue de distribution plus fine qu’une loi de Pareto lorsque $\xi$>0 (loi GEV de Fréchet). Pour s’en convaincre, nous avons estimé le paramètre d’échelle $(\hat{\sigma}_2 )$ sous contrainte que $\xi$ soit nulle et avons trouvé $\hat{\sigma}_2=78,5$. En simulant les modèles avec $\xi>0$ puis avec $\xi=0$, nous nous rendons compte que les dépassements de seuil extrêmes atteignent des niveau plus importants lorsque $\xi>0$. La formule \ref{eq: Mean excess} permet de calculer les dépassements moyens prédits dans les deux cas de figures :\\
\begin{itemize}
\item Si $\xi>0$, $\mathbb{E}(X-250|X>250)=\frac{\hat{\sigma}_1+\hat{\xi}(250-100)}{1-\hat{\xi}}=116$ mm 
\\
\item Si $\xi=0$, $\mathbb{E}(X-250|X>250)=\hat{\sigma_2}=78,5$ mm
\\
\end{itemize}


\noindent Le choix du modèle (prendre $\xi=0$ ou non) joue un rôle important dans la détection des événements extrêmes simulés et donc sur le calcul de prime. Nous reviendrons sur cette aspect dans la troisième partie de notre mémoire. 
En admettant que le modèle choisi est celui estimé lorsque $\xi \neq 0$ , il est possible d’afficher les densités empiriques et théoriques de la loi de $(X|X>100 mm)$ ainsi que les niveaux de retour empiriques et prédits par le modèle :
\begin{figure}[htbp]
\centering
  \includegraphics[scale=0.5,keepaspectratio=true]{Figures/Chapter2/plot_GPD.pdf}
  \caption[Adéquation des données à la loi GPD]{Adéquation des données à la loi GPD}
  \label{fig: Plot GPD}
\end{figure}

\noindent Le \emph{Probability Plot} affiche la courbe suivante paramétrée par x : $\left(\frac{1}{n} \sum_{i=1}^{54} \mathbb{1}_{x_i\leq x},\hspace{0.05cm}\hat{F}(x)\right)$ où $\hat{F}$ est la fonction de répartition de la GPD estimée sur la variable ($X|X>100$ mm). Les deux courbes de significativité enveloppent la courbe paramétrique affichée qui est bien calibrée aux extrêmes.

\noindent Dans le \emph{Density Plot}, la distribution empirique ($X|X>100$ mm) met en exergue une bosse des événements compris entre 250 et 300 mm. Cependant, si le seuil avait été choisi à 250 mm, l’échantillon d’estimation aurait été réduit à 12 observations ce que nous jugeons trop peu pour estimer une GPD dont les estimateurs aient une faible variance. 

\noindent Enfin, le \emph{Return Level Plot} indique la fréquence réelle et estimée des niveaux de dépassement du seuil 100 mm des pluies agrégées. Il est à noter que l’abscisse est à échelle logarithmique. Jusqu’à une période de retour d’environ 1000 ans, la distribution de Pareto calibre bien les retours des données historiques. Au-delà, il est plus difficile d’estimer des événements qui se produisent une fois tous les 2000 ans par exemple. 

\section{Application aux 28 régions de la Jamaïque}\label{subsec: GPD 28}
L’estimation des lois GPD a été itérée sur les 28 cellules. Les pluies sont prises sur toute l'année. La procédure de sélection graphique étant couteuse en temps et difficile à automatiser, nous utilisons le seuil de 100 mm correspondant à la cellule de Kingston pour l’ensemble des cellules. Ainsi, nous estimons $28 \times 3$ paramètres correspondant à $\xi$ (forme) et $\sigma_1$ (échelle) et à $\sigma_2$ (échelle lorsque $\xi=0$). Les résultats avec les niveaux moyens de dépassement prédits sont donnés en annexe \ref{AppendixB}. Il est à noter que les cellules 11, 18, 19 et 26 ont des coefficients de forme négatifs (loi GEV de Weibull) mais sont significativement égaux à 0. Dans le cas échéant, nous choisirons une distribution de Gumbel comme nous l’avons vu dans le paragraphe précédent.